GPT可以快速上手的的数据分析方法 您所在的位置:网站首页 调整顺序 英文 GPT可以快速上手的的数据分析方法

GPT可以快速上手的的数据分析方法

2023-04-24 06:24| 来源: 网络整理| 查看: 265

视频链接:https://www.bilibili.com/video/BV1fL411e7S4/?vd_source=ccd0a39aa266e9fa1d50708e47c72518

以下为可以用视频里的教程测试过可用的一些分析方法,大家红色部分替换模版就行啦!这里有最容易理解的介绍和可以调整的参数,希望这个专栏可以成为大家使用的一个手册,目前这个专栏讲的都是一些比较基础的方法,如果大家希望学习比较进阶一点的内容可以私信告诉我哦。

线性回归 Linear Regression:专门用来预测一个具体的数字,比如房价

最简单的线性回归,英文名:linear regression,用一条线(根据数据有多少列递增)去找适应整个数据集,可以看下面一个图来理解一下,可以调整的参数暂无,实际可以调整的参数一般都不建议调整。

线性回归加上L1正则化,英文名:lasso regression,和最简单的线性回归很像,唯一的不同是加上了L1正则化,这个看起来很复杂,实际上就是为了简化模型,让模型能够在测试中获得更高的正确率。L1的特点是,会剔除掉不相关的变量,比如说预测房价和你的身高没啥关系,如果你在数据里有身高这一项,L1大概率会让身高对于房价的影响降为0。可以调整的参数:

alpha:L1的强度,可以设定为从0到正无穷,数字越大,正则化力度越强,越无关的变量就会越变0

线性回归加上L2正则化,岭回归,英文名:ridge regression,和L1回归很像,唯一的不同是换成了L2正则化,实际上也是为了简化模型,让模型能够在测试中获得更高的正确率。L2的特点是,会降低不相关的变量的影响,但不会成为0,比如说预测房价和你的身高没啥关系,如果你在数据里有身高这一项,L2大概率会让身高对于房价的影响接近0,但不会成为0。可以调整的参数:

alpha:L2的强度,可以设定为从0到正无穷,数字越大,正则化力度越强,越无关的变量就会越变0

不同线性回归比较,这里可以看到怎么用一条线去适应数据集

2. 逻辑回归 Logistic Regression,类似线性回归,但是这个是用来专门做分类的,比如通过各种数据判断一个交易是不是虚假的(虚假或不虚假两类)。可以调整的参数:

penalty:也就是正则化选择,可选择{'l1', 'l2', None, 'elasticnet' }。默认是l2。l1是L1正则化,l2是L2正则化(上面的线性回归部分都有详细的解释),None是没有正则化,elasticnet是L1和L2都有

C:这个是正则化的倒数,默认是1,注意这里和线性回归有区别,这个数字小,正则化越强,越大越弱

l1_ratio:这个不需要加,如果你上面的penality选择的不是elasticnet,如果你加的话,这个数字代表你l1和l2的比重

3. 支持向量机 SVM:Support Vector Machine,可以理解为一个优化的线性回归,可以看一下下面的图来理解一下。可以调整的参数:

C:这个是正则化的倒数,默认是1,注意这里和线性回归有区别,这个数字小,正则化越强,越大越弱

kernel:默认是rbf,可选择的是{‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’}。这个比较进阶,可以理解为一种让模型能够适应更复杂的数据,如果只想线性的话可以考虑选择linear

SVM对比线性回归,可以看到SVM给出了最优的线

4. 随机森林 random forest,可以把这个理解为另一种分类的办法,下图可以看一下。随机树的优点就是快而且自带正则化效果。可以调整的参数:

n_estimators:你想要多少棵树,默认100,一般而言越大越正则化

criterion:这个比较进阶,可以随便选一个,默认gini。可以选择{“gini”, “entropy”, “log_loss”}

min_samples_split: 这个比较进阶,默认2,最少有多少个数据点才能分出新的叶子,可以按照正确情况来调整

min_samples_leaf: 这个比较进阶,默认1,每一个末端叶子最少有多少个数据点,按照正确情况来调整

随机森林,可以看到随机生成多个树,然后投票



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有